摘要 : [目的 /意义 ] 为 了 人 全面、 客观 、 高 效 、 直 观 地 掌握 科技 领域 主题 的 发 展 规律 和 演变 趋 
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势 ， 本文 提出 了 一 种 基于 多 源 数 据 的 领域 主题 演化 路 径 识 别 和 分 析 框 架 。[ 方 法/ 过程] 获取 不 
同 来 源 的 科技 文献 数据 , 利用 多 维 样本 有 序 聚 类 方法 辅助 时 间 切 片 ， 基于 改进 的 词 袋 构 建 方 


口 


种 来 源 的 数据 进行 实 i 


法 ， 提 升 LDA 模型 主题 识别 效果 ， 借 助 Louvain 社区 发 现 算法 在 主题 层 进行 多 源 数据 的 融 
合 ， 分 析 领 域 主题 演化 路 径 。[ 结 果 / 结 论 ] 利 用 美国 太 赫 将 研 究 领域 基金 项 目 、 论 文 和 专利 三 
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研究 ， 结 果 表 明 ， 三 种 数据 源 能 够 清晰 划分 出 4 个 时 间 窗 口 , 改进 的 


词 袋 构建 方法 能 够 表征 更 准确 的 领域 信息 内 涵 , 主题 社区 有 助 于 从 多 源 数据 复杂 的 演化 网 络 


中 厘清 主题 演化 脉络 。 
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Absttact: [Purpose/significance] In order to comprehensively, objectively, 


efficiently and intuitively grasp the development law and evolution trend of 


domain topics, this paper proposes a framework for identifying and analyzing the 


evolution path of domain topics based on multi-source data. [Method/Process] 


Acquire scientific and technological literature data from different sources, use 


multi-dimensional ordered sample clustering method to assist temporal slicing, 


enhance the LDA model topic identification effect based on an improved word 


packet construction method, utilize Louvain Community Detection Algorithm for 


fusion of multi-source data at the topic level, and analyze domain topic evolution 


path. [Results/Conclusion] The empirical study in terahertz research field in 


the United States was conducted using the data from three sources about Fund 
project, the paper and the patent. The results Show different sources are clearly 
divided into four unique development stages, and the improved word-bag 
construction method could represent more accurate domain information, and 
simplified topic communities can help extract evolution paths from complex 
networks. 

Keywords: multi-source data fusion; domain topic evolution path; LDA model; Word 
bag construction; time window division; multi-dimensional ordered sample 


clustering; Louvain Community Detection Algorithm 


1 引言 


世界 科技 发 展 态势 深刻 变化 ,国际 科 技 创 新 环境 与 竞争 格局 加 速 调整 。 科 学 
技术 发 展 呈 现 动态 性 ， 学 科 领 域 的 研究 主题 不 断 演进 。 综 合 利 用 多 源 数 据 信 息 ， 
动态 跟踪 学 科 领 域 主题 演进 , 能 够 有 效 揭示 学 科 领 域 知识 发 展 变化 及 其 相互 作用 
的 特征 和 规律 ， 从 而 追溯 学 科 发 展 轨迹 、 发 现 新 的 知识 增长 点 ， 进 而 以 超前 的 思 
维和 战略 决策 引导 科技 领域 的 发 展 。 基于 多 源 数据 挖掘 和 认识 领域 主题 发 展 规律 
与 演化 趋势 , 不 仅 对 科研 人 员 全 面 把 握 领 域 发 展 脉络 、 发 展现 状 和 未 来 趋势 具有 
基础 性 作用 , 还 能 够 为 政策 制定 者 预测 科技 前 沿 、 部 署 创新 战略 提供 重要 情报 保 
障 。 

本 文 面向 科技 领域 主题 演化 分 析 工 作 , 提出 基于 多 源 数据 的 领域 主题 演化 分 
析 框 架 ， 利 用 基金 项 目 、 论 文 和 专利 信息 ， 全 面 准确 地 识别 领域 重要 研究 主题 ， 
分 析 领 域 发 展 态势 ， 把 握 不 同 研究 主题 的 演化 趋势 。 


2 相关 研究 


2. 1 多 源 数据 研究 

“多 源 数 据 ” 是 指 从 不 同 数据 来 源 中 获得 的 不 同类 型 的 数据 ,这 些 数据 还 可 
能 具有 不 同 的 实体 类 型 趾 , 其 多 源 性 体现 在 “数据 来 源 类 型 -数据 类 型 -实体 类 型 ” 
三 个 层次 中 。 李 广 建 和 杨 林 户 指出 ， 同 一 个 事实 或 规律 可 以 同时 隐藏 在 不 同 的 数 
据 形 式 中 , 也 可 能 是 每 一 种 数据 形式 分 别 支 持 了 同一 个 事实 或 规律 的 茶 一 个 或 几 
个 侧面 , 这 既 为 数据 和 信息 分 析 的 结论 的 交叉 验证 提供 了 契机 ,也 要 求 分 析 者 在 
分 析 研 究 过 程 中 有 意识 地 融 集 各 种 类 型 的 数据 。 

多 源 数据 的 有 效 利 用 必须 进行 科学 合理 的 数据 融合 。H.Y Xu 等 中 提出 科学 
计量 学 领域 多 源 数据 融合 的 三 个 过 程 ， 即 前 期 的 数据 类 型 融合 , 中 期 的 数据 关系 
融合 和 后 期 的 集合 聚 类 。 谭 晓 和 李 辉 四 将 多 实体 和 多 关系 融合 应 用 到 主题 关联 ， 
并 利用 图 模型 识别 社区 结构 ， 构 建 多 源 数据 知识 融合 框架 。 冯 佳 等 器 提出 面向 
研究 前 沿 识别 的 载体 -特征 -关系 融合 模型 ， 用 于 实现 基于 多 源 数据 和 深入 语义 层 
面 的 研究 前 沿 识别 。X. Wang 1 采用 相关 分 析 、 综 合 因子 分 析 、 米 权 法 、 理 想 解 


相似 性 顺序 偏好 技术 (TOPSIS) 法 和 二 维 四 象限 映射 法 ， 从 多 维度 、 多 因素 、 多 
指标 、 多 方法 融合 的 角度 对 期 刊 的 话语 权 进 行 评价 。 陈 启明 等 中 分 别 识别 新 闻 
主题 和 政策 主题 , 拟 合 时 间 和 主题 相似 度 因 素 , 探索 突 发 公共 事件 主题 的 政策 趋 
向 规律 。 胡 吉 霞 外 利用 聚 类 算法 和 图 卷 积 自 编码 网 络 模型 进行 网 络 节 点 对 齐 和 
网 络 结构 融合 ， 生 成 融合 主题 、 关 键 词 和 实体 的 多 维度 学 科 知 识 网 络 ， 揭 示 学 科 
知识 的 静态 结构 。 

研究 发 现 , 当前 对 于 各 种 数据 源 的 独特 性 质 以 及 不 同 数据 源 之 间 的 关系 认识 
还 不 够 明确 , 难以 解决 不 同 数据 源 术语 表达 和 语义 不 一 致 的 问题 , 在 实际 应 用 中 
多 元 关系 融合 较为 复杂 ， 多 源 数据 融合 尚未 得 到 广泛 应 用 。 因 此 ， 基 于 多 源 数 据 
的 主题 识别 和 主题 演化 分 析 需 要 利用 不 同 数据 源 的 特征 , 借助 多 种 手段 降低 不 同 
数据 源 的 信息 差异 所 带 来 的 负面 影响 ， 探 索 更 加 简洁 高 效 的 多 源 数 据 融 合 方 案 。 


2.2 主题 演化 研究 


主题 演化 是 “以 词语 为 表征 的 学 科 主 题 在 时 间 维 度 上 的 发 展 变 化 过 程 ”， 体 
现 了 研究 主题 的 新 陈 代谢 规律 ， 蕴 含 着 学 科 领 域 的 发 展 态 势 和 未 来 走向 外 。 主 
题 演化 分 析 过 程 一 般 包括 数据 获取 、 时 间 窗 口 划分 、 主 题 识别 、 主 题 关 联 和 主题 
演化 分 析 五 个 步 又。 

国内 外 学 者 对 主题 演化 分 析 的 研究 维度 , 主要 分 为 主题 强度 的 演化 和 主题 内 
容 的 演化 两 个 方面 "5 ， 现 有 研究 多 数 采 用 可 视 化 方法 构建 和 分 析 主 题 演化 路 径 。 
通过 可 视 化 的 方式 展现 主题 演化 网 ， 能够 生动 形象 地 揭示 演化 脉络 ,增强 研究 人 
员 的 洞察 力 和 感知 力 , 是 有 效 分 析 海 量 信息 的 重要 途径 。2003 年 , 美国 国家 研究 
院 提 出 科学 知识 图 谱 的 概念 1 ，S. Morris 等 上 率先 以 时 间 线 图 谱 的 方式 分 析 
和 展现 研究 前 沿 主题 的 演化 情况 。G. Palla 等 上 提出 社区 网 络 演化 过 程 中 可 能 
存在 的 演化 形式 ， 包 括 新 生 、 消 亡 、 扩 张 、 收 缩 、 融 合 和 分 裂 六 种 。 近 年 来 ， 通 
过 多 种 方法 简化 主题 演化 网 络 、 利 用 桑 基 图 和 河流 图 等 方式 呈现 主题 演化 路 径 的 
可 视 化 方案 逐渐 发 展 。 周 源 等 1 提出 基于 主题 变迁 的 领域 发 展 路 径 识 别 方法 ， 
引入 学 者 信息 ， 利 用 Kmeans++ 算法 获取 不 同时 间 片 上 的 主题 ， 利 用 谱 聚 类 的 
方式 合并 类 似 的 主题 ， 分 析 领 域 技术 发 展 规律 , 快速 定位 领域 发 展 热点 和 重要 学 
者 , 实现 领域 发 展 河流 图 的 全 自动 输出 。 陈 悦 等 05] 通过 技术 群 相似 度 时 序 分 析 
法 , 利用 桑 基 图 展现 技术 融合 与 扩散 演化 路 径 。 刘 怀 兰 等 04 基于 时 序 主题 建 模 、 
时 序 主题 关联 以 及 河流 图 可 视 化 , 完成 领域 多 源 数据 的 融合 主题 挖掘 和 多 维度 技 
术 演 化 路 径 分 析 。 

研究 发 现 , 现 有 关于 学 科 领 域 创 新 演化 路 径 的 研究 , 在 数据 获取 时 多 选择 以 
论文 表征 科学 创新 成 果 、 以 专利 表征 技术 创新 成 果 07 ， 仅 从 单 源 或 二 源 数据 中 
分 析 领 域 创新 演化 过 程 。 时 间 划 分 方案 对 主题 识别 工作 具有 重要 影响 , 但 多 数 研 
完 采 用 固定 时 间 窗 口 或 滑动 时 间 窗 口 方法 ,受到 主观 因素 和 研究 经 验 的 影响 ; 而 
且 由 于 不 同 数据 源 的 研究 内 容 具 有 相对 滞后 性 5 ， 统 一 划 定 的 时 间 窗 口 往往 不 
能 有 效应 对 具备 不 同 数据 特征 的 多 源 数据 。 主 题 识别 时 ,传统 分 词 工具 提取 的 单 
词 无 法 有 效 表征 领域 内 涵 , 构建 领域 词典 的 方法 难以 高 效 、 全 面 地 掌握 领域 全 部 
知识 ， 现 有 的 新 词 发 现 算法 英文 适用 性 有 限 。 主 题 演化 分 析 时 ， 难 以 有 效应 对 主 
题 节 点 较 多 、 演 化 关系 复杂 的 情况 ， 同 时 由 于 同一 研究 内 容 在 不 同 数据 源 中 的 主 
题词 不 完全 一 致 ， 不 能 通过 直接 对 齐 进行 多 角度 的 主题 演化 分 析 ， 高 效 、 准 确 提 
取 和 分 析 清 晰 的 主题 内 容 演化 信息 存在 挑战 。 

本 文 针 对 上 述 问 题 , 提出 了 基于 多 源 数 据 的 领域 主题 演化 路 径 分 析 框 架 ， 综 


合 利 用 基金 项 目 、 论文 和 专利 数据 , 通过 多 维 有 序 样本 聚 类 方法 辅助 划分 时 间 窗 
口 ， 利 用 改进 的 词 袋 构建 方法 对 LDA 主题 建 模 效果 进行 优化 ， 对 识别 出 的 者 干 
主题 进行 时 序 关 联 ， 运 用 Louvain 社区 发 现 算 法 简化 主题 演化 网 络 ， 融合 来 自 不 
同 数据 源 的 主题 节点 ， 应 对 主题 演化 分 析 过 程 中 多 源 数 据 主题 难以 对 齐 的 问题 ， 
最 后 从 主题 演化 形式 特征 和 内 容 特 征 两 个 角度 全 面 、 准确、 高 效 地 识别 和 分 析 领 
域 发 展 过 程 中 主题 演化 现象 。 


3. 研究 设计 


本 文 所 采用 的 研究 方法 整体 流程 (图 1) 主要 包括 多 源 数据 获取 、 文 本 主题 
挖掘 、 主 题 演化 网 络 构建 与 分 析 3 个 步骤 ， 领 域 专家 智慧 融入 每 个 步 又。 其中， 
多 源 数据 的 融合 分 为 两 步 : 首先 对 来 自 不 同 数据 源 的 主题 进行 前 后 时 间 窗 口 的 主 
题 关 联 , 运用 相似 度 计算 方法 ; 而 后 将 属于 同一 研究 范畴 的 不 同 来 源 的 主题 融合 
在 同一 社区 ， 运 用 Louvain 社区 发 现 算 法 。 


多 源 数据 获取 你 文本 主题 挖掘 主题 演化 网 络 构建 和 分 析 
多 源 数据 柄 合 


| yep 1】 基于 Flsher 有 序 取 关 8 的 
| 站 而 D 划 分 


el 


-术语 | [| 
“时间; 
;型 ”证 主题 文档 岂 对 开 ! 


Wy 


图 1 研究 方法 流程 


3. 1 多 源 数 据 获 取 


多 源 数据 的 集成 对 领域 发 展 态 势 的 全 面 准 确 感知 具有 重要 作用 。 在 科技 创新 
领域 , 基金 项 目 数据 中 缠 含 着 领域 专家 和 决策 者 共同 认可 的 重要 研究 主题 , 期刊 
论文 是 领域 基础 研究 成 果 的 重要 传播 阵地 , 专利 则 是 面向 产业 应 用 的 重要 技术 成 
果 载 体 ,。 综合 应 用 三 种 数据 源 能 够 从 不 同 侧面 发 现 领 域 重要 研究 内 容 , 实现 尽 可 
能 全 面 、 准确 的 分 析 。 因 此 ,本文 选取 Web of Science 数据 库 的 SCI 期 刊 论文 、 
DI 专利 文献 以 及 Digital Sciences 咨询 公司 的 Dimensions 平台 (https://www.dim 
ensions.ai/) 的 基金 项 目 信 息 作 为 数据 来 源 ， 主 要 利用 标题 和 摘要 文本 进行 主题 
挖掘 ， 分 别 以 论文 出 版 时 间 、 专 利 申请 时 间 、 项 目 开 始 时 间作 为 三 种 数据 源 的 时 
间 人 信息。 根据 研究 目标 ， 选 取 所 需 字段 组 建 初始 数据 集 。 


3. 2 文本 主题 挖掘 


从 不 同 来 源 的 自然 语言 文本 中 挖掘 主题 进行 演化 分 析 , 首先 对 数据 集 分 别 进 
行 时 间 维 度 的 划分 , 构建 大 和 干 带 有 时 间 信 息 的 语料库 ， 通 过 分 词 手段 从 文本 中 提 
取 具 有 代表 性 的 术语 ， 利 用 主题 模型 进行 主题 抽取 ,并 将 不 同 来 源 的 主题 进行 时 
间 对 齐 。 

3.2.1 时 间 窗 口 划分 

为 解决 数据 集 时 间 划 分 主观 随意 的 问题 ， 有 研究 者 ”” 基于 主题 分 布 特征 ， 
对 专利 数据 论文 数据 和 网 页 数据 进行 时 间 段 划分 。 该 方法 通过 主题 建 模 , 将 “时 
间 - 文 档 ” 和 矩阵 转 为 “时 间 - 主 题 ” 和 矩阵 ， 用 多 维 主题 特征 将 时 间 表 示 为 向 量 ， 表 
通过 降 维和 可 视 化 的 方法 , 将 连续 的 时 间 划 分 成 若干 秘 ， 每 个 驴 内 主题 分 布 较为 


接近 ,， 簇 间 则 存在 较 大 差异 。 考 虑 到 不 同 数据 源 研究 内 容 存 在 相对 滞后 性 ， 本 研 
究 借 鉴 上 述 研究 中 将 时 间 看 作 多 维 向 量 进行 聚 类 的 思想 , 利用 多 源 数据 独特 的 形 
式 特征 ,分 别 进行 多 维 有 序 样本 聚 类 ,最 后 对 各 时 间 段 产生 的 不 同 主题 的 时 间 进 
行 对 齐 ， 咨 询 专 家 意见 迭代 产生 最 终 用 于 领域 主题 演化 分 析 的 时 间 划 分 方案 。 

对 于 时 间 序 列 数据 而 言 , 事物 发 展 阶段 的 划分 不 能 打 乱 样本 时 间 的 序列 关系 ， 
只 有 相 邻 的 样本 才能 聚 到 一 类 。1958 年 WD. Fisher 提出 用 于 解决 此 类 问题 的 
有 序 聚 类 算法 ” ， 其 基本 思想 是 定义 类 的 直径 ， 在 分 类 必须 相 邻 的 限制 条 件 下 
定义 了 损失 函数 , 在 逐步 递 推 的 计算 中 寻找 到 使 得 损失 函数 最 小 的 最 优 分 类 。 目 
前 ， 该 方法 被 应 用 于 土壤 学 ”” 、 植 物 学 ” 、 地 质 学 ”” 等 多 个 学 科 领 域 ，2016 
年 祖 坤 琳 等 ” 通过 构建 专利 特征 向 量 ， 基 于 Fisher 有 序 聚 类 方法 对 专利 知识 
的 发 展 阶段 进行 划分 ， 表 现 专利 研究 主题 在 不 同时 期 的 发 展 变化 。 

本 文 对 于 多 源 时 间 序 列 数 据 进 行 有 序 聚 类 的 实验 方案 参考 严 广 松 和 路 允 芳 
2 提出 的 多 维 有 序 样本 的 聚 类 方法 ， 利 用 综合 指标 法 将 多 维 观测 值 压 缩 到 一 维 
空间 后 进行 有 序 样本 聚 类 , 通过 损失 函数 评估 输出 最 佳 聚 类 方案 , 实现 对 多 个 文 
档 集 的 时 间 划 分 , 用 于 后 续 的 词 袋 构建 和 主题 识别 。 通过 将 不 同文 档 集 生成 的 若 
于 主题 进行 时 间 维 度 的 对 齐 ， 划 分 领域 整体 发 展 阶段 。 时 间 划 分 的 过 程 和 结果 均 
咨询 专家 意见 ， 以 保证 实验 的 可 靠 性 。 

3.2.2 词 袋 构建 

主题 抽取 的 效果 很 大 程度 上 受到 文本 分 词 效 果 的 影响 , 传统 分 词 方法 无 法 有 
效 挖 掘 短语， 切 出 的 词汇 对 文档 的 代表 性 不 足 。 有 研究 者 R90 利用 基于 TF-IDF 的 
循环 达 代 拼接 法 , 根据 关键 词 左右 两 个 方向 的 拼接 形成 短语 。 本 文 借鉴 其 研究 思 
想 ， 采 用 TF-IDF 值 和 术语 长 度 加 权 词 频 的 方法 ， 尝 试 解决 这 一 研究 难题 。 

TF-IDF 的 核心 思想 是 ， 假 设 某 个 单词 或 短语 在 一 篇 特定 的 文章 中 出 现 的 频 
率 较 高 ， 同 时 在 数据 集 内 其 他 文本 中 出 现 的 频率 很 低 ， 那 么 该 术语 的 TF-IDF 值 
较 高 ， 在 数据 集中 类 别 区 分 能 力 很 好 ， 对 文档 的 代表 性 很 强 。 然 而 在 传统 的 TF- 
IDF 算法 中 , 短语 在 文档 中 出 现 的 频率 远 低 于 单词 , 不 易 被 选中 到 候选 术语 集合 。 
因此 ， 本 文 利 用 TF-IDF 算法 ， 设 置 词 频 上 下 边界 ， 识 别 每 篇 文档 中 包含 1-5 个 
单词 的 术语 ， 并 根据 TF-IDF 值 和 术语 长 度 进行 词 频 加 权 ， 构 建新 的 文档 词 袋 。 
文档 中 术语 的 加 权 词 频 计算 方式 为 : 

F’'(w,Di) = F(w,D;) x TF — IDF(w,D;) x len(w) (1) 

其 中 ，F(w, Di) 为 术语 w 在 文档 Di 中 的 原始 词 频 ，TF-IDF(w, Di) 表 示 w 在 文 
档 Di 中 的 TF-IDF 值 ，len(w) 表 示 术 语 长 度 (1 科 len(w) 乏 $)。 

3.2.3 主题 抽取 和 命名 

LDA 主题 模型 是 一 种 典型 的 词 袋 模型 ， 常 用 于 各 领域 的 主题 识别 和 主题 演 
化 分 析 过 程 。LDA 模型 基于 三 层 贝 叶 斯 网 络 结构 ， 一 篇 文档 代表 若干 主题 构成 
的 一 个 概率 分 布 , 而 每 一 主题 又 代表 若干 词语 构成 的 一 个 概率 分 布 ， 形 成 “文档 
-主题 - 词 ” 的 三 层 结构 。 因 此 ，LDA 的 模型 计算 结果 可 以 从 “文档 -术语 ”分 布 
中 得 到 “主题 -文档 ”和 “主题 -术语 ”的 两 个 概率 分 布 ， 这 为 后 续 分 析 过 程 提供 
丰富 的 数据 信息 。LDA 主题 模型 实验 过 程 中 ， 需 要 设 定 主 题 个 数 K。 主 题 数量 
对 主题 识别 结果 具有 重大 影响 ,一般 采 用 困惑 度 (Perplexity) 作为 模型 评估 指标 
R71 ， 选 取 处 于 困惑 度 曲 线 拐点 的 主题 数 作 为 KK 值 。 

根据 “主题 -术语 ”分 布 矩 阵 , 参考 领域 文献 和 专家 意见 进行 主题 命名 。 根据 
“主题 -文档 ”分 布 矩 阵 , 可 以 计算 主题 强度 和 主题 时 间 。 主题 强度 为 主题 支持 文 
档 与 当前 时 间 窗 口 下 语料库 全 部 文档 的 比值 , 表征 主题 研究 热度 。 主题 时 间 为 主 


题 支 持 文 档 的 平均 时 间 ,， 表征 主题 的 新 颖 程度 。 由 于 不 同 数据 源 研究 内 容 存 在 相 
对 滞后 ,本 研究 利用 主题 时 间 对 多 源 数据 主题 进行 对 齐 ,， 开展 后 续 的 主题 演化 分 
析 工 作 。 

与 常规 的 文本 主题 挖掘 方法 相 比 ， 本 文 的 创新 之 处 在 于 ; 针对 多 源 数据 研究 
内 容 相对 灌 后 的 固有 现象 , 设计 时 间 窗 口 划分 方案 , 解决 当前 研究 中 时 间 划 分 主 
观 随意 问题 ， 并 利用 主题 时 间 进 行 多 源 数据 研究 内 容 时 间 维 度 的 对 齐 ; 针对 分 词 
过 程 中 词汇 代表 性 不 足 、 可 理解 性 差 的 问题 , 综合 利用 术语 原始 词 频 、TF-IDF 值 、 
术语 长 度 构建 词 袋 ， 改 进 LDA 模型 主题 识别 效果 。 
3. 3 主题 演化 网 络 构建 与 分 析 

基于 多 源 数据 主题 演化 研究 需要 对 不 同 数据 来 源 的 主题 进行 融合 分 析 。 对 于 
分 别 从 多 源 数据 中 识别 的 不 同 主题 ， 首先 通过 前 后 时 间 窗 口 的 主题 关联 , 选择 具 
有 高 关联 性 的 主题 对 构建 初步 的 主题 演化 网 络 ; 而 后 利用 Louvain 算法 将 来 自 不 
同 数据 源 的 主题 节点 聚合 成 若干 社区 ， 实 现 主题 层面 的 多 源 数据 融合 ; 最 后 综合 
利用 多 源 数据 信息 , 从 主题 社区 演化 形式 特征 和 内 容 特 征 两 个 角度 综合 分 析 主 题 
社区 演化 趋势 。 

3.3.1 主题 关联 

本 文 将 主题 视 为 由 若干 主题 词 表征 的 多 维 向 量 ， 利 用 余弦 相似 度 算 法 PR3] ， 
对 相 邻 时 间 窗 口 下 的 各 个 主题 进行 相似 度 计算 。 利 用 箱 型 图 对 计算 得 到 的 相似 度 
进行 异常 值 检 测 ， 选 取 相 似 度 异常 高 的 主题 对 ， 进 行 主题 时 序 关 联 。 以 上 步骤 可 
根据 高 关联 主题 对 建立 前 后 时 间 窗 口 的 演化 联系 ， 从 而 以 主题 为 节点 , 初步 构建 
领域 发 展 的 主题 演化 网 络 。 

箱 型 图 是 一 种 用 作 显 示 一 组 数据 分 散 情 况 的 统计 图 , 用 于 反映 数据 分 布 特征 ， 
对 单 变量 大 样本 异常 值 的 标记 十 分 有 效 、 方便 和 直观 R91 。 按照 界定 阔 值 的 大 小 ， 
异常 值 可 分 为 轻 度 异常 值 和 极端 异常 值 两 种 。 实 际 应 用 中 ,多 采用 轻 度 异 常 值 作 
为 异常 值 选 定 依据 (如 图 2)， 轻 度 异 常 值 的 上 边界 H=Q3+1.5XIQR。Q1 表示 数 
据 的 第 一 四 分 位 点 , Q; 表示 数据 的 第 三 四 分 位 点 , IQR 表示 Q3 和 Qi 两 数 之 差 。 
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图 2 箱 型 图 异常 值 检 测 


3.3.2 社区 发 现 

通过 主题 直接 构建 的 主题 演化 网 络 中 节点 多 、 关 系 复杂 , 同一 研究 内 容 在 不 
同时 间 窗 口 主题 的 主题 词 不 完全 一 致 , 不 能 通过 直接 对 齐 进行 全 面 深 入 的 主题 演 
化 分 析 。 社区 发 现 算 法 在 复杂 网 络 中 应 用 较 多 , 但 在 主题 识别 和 主题 演化 分 析 工 
作 中 应 用 较 少 。 在 主题 演化 网 络 中 通过 图 计算 进行 社区 发 现 , 一 方面 可 以 简化 演 
化 网 络 ,清晰 呈现 领域 发 展 趋势 ， 男 一 方面 可 以 融合 不 同 来 源 的 主题 ,综合 利用 


多 源 信息 进行 领域 主题 演化 分 析 。 

社区 划分 的 算法 分 为 分 离 型 算法 和 聚合 型 算法 , 近年 来 也 有 研究 者 提出 一 些 
新 的 算法 ， 比 如 基于 模块 度 优 化 的 算法 ， 基 于 统计 推理 的 随机 游 走 算 法 ， 以 及 标 
签 传 播 算法 等 等 60 。M. E.J. Newman B1 首次 在 社区 网 络 划分 中 引入 了 模块 度 
(Modularity) 的 概念 ， 衡 量 社区 内 节点 的 连 边 数 与 随机 情况 下 的 边 数 的 差距 。 
模块 度 取 值 范围 为 [-0.35, 1]， 值 越 大 表明 社区 结构 越 符 合 高 内 聚 低 耦 合 的 特征 ， 
社区 划分 质量 越 高 。 当 前 模块 度 已 成 为 社区 划分 中 应 用 最 广泛 的 评价 函数 ， 实 际 
应 用 中 模块 度 一 般 在 0.3-0.8 之 间 。Louvain 算法 就 是 基于 模块 度 划 分 的 社区 发 现 
算法 ， 在 实现 过 程 中 包括 节点 移动 和 社区 聚合 两 个 阶段 6 ， 模 块 度 可 以 在 该 算 
法 运行 的 每 一 步 衡量 产生 的 社区 是 否 为 相对 最 佳 的 划分 结果 , 最 终 评估 输出 最 佳 
的 社区 划分 方案 。 

因此 ， 针 对 大 规模 主题 演化 网 络 结构 复杂 、 理 解 成 本 高 的 问题 ， 以 及 多 源 主 
题 融合 的 需要 ， 本 文 利用 社区 发 现 算法 对 初步 构建 的 主题 演化 网 络 进一步 划分 ， 
将 主题 节点 聚合 成 若干 社区 ,实现 多 源 数据 主题 层次 的 融合 , 构建 简洁 的 多 源 主 
题 融 合演 化 网 络 。 

3.3.3 主题 演化 分 析 

多 源 主题 融合 演化 网 络 形 成 了 “主题 词 -主题 -社区 ”的 三 级 结构 ， 主 题 社区 
在 时 间 维 度 上 形成 清晰 的 演化 路 径 ， 能 够 反映 领域 发 展 脉络 ， 揭 示 不 同 研究 分 文 
的 发 展 趋势 。 因 此 ， 本 文 从 形式 特征 和 内 容 特征 两 个 角度 ， 对 主题 社区 演化 展开 
分 析 。 

(1) 主题 演化 形式 特征 

G.Palla03l 提出 社区 网 络 演化 过 程 中 可 能 存在 新 生 、 消 亡 、 扩 张 、 收 缩 、 遇 
合 和 分 裂 六 种 演化 形式 “如 图 3)， 新 生 和 消亡 即 网 络 的 出 现 和 消失 ， 扩 张 和 收 
缩 即 网 络 内 部 节点 数量 增长 和 减少 ， 融 合 和 分 裂 分 别 表 征 该 网 络 与 前 /后 一 时 间 
窗口 的 其 他 网 络 产生 联系 。 在 此 基础 上 ， 图 书 情报 界 学 者 将 这 六 种 演化 形式 应 用 
于 研究 主题 演化 过 程 中 B335] ， 在 时 间 维 度 上 ， 对 主题 演化 进行 推理 分 析 。 
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图 3 网 络 演化 形式 


主题 演化 形式 特征 分 析 研 究 不 同时 间 窗 口 下 社区 内 部 和 社区 之 间 的 关联 关 


系 。 主题 社区 内 部 不 同时 间 窗 口 下 存在 若干 主题 节点 , 通过 主题 节点 数量 的 变化 
形成 新 生 、 消 亡 、 扩 张 、 收 缩 四 种 演化 形式 。 社 区 之 间 通 过 高 关联 主题 对 建立 了 
前 后 时 间 窗 口 下 社区 间 的 演化 联系 , 形成 分 裂 和 融合 两 种 演化 形式 ,在 此 基础 上 ， 
不 同 数据 源 具 有 自身 独特 的 性 质 , 基金 项 目 数据 代表 受到 领域 专家 和 决策 者 一 致 
认可 的 研究 内 容 , 论文 数据 和 专利 数据 则 分 别 代 表 基 础 研究 与 应 用 研究 的 重要 成 
果 。 对 于 社区 内 不 同 数据 来 源 的 主题 节点 发 展 趋势 进行 分 析 ， 能 够 从 更 广阔 的 视 
角 进 一 步 丰富 研究 结论 。 

3.3.4 战略 坐标 图 

战略 坐标 图 是 基于 研究 主题 或 聚 类 , 描述 各 研究 主题 的 发 展 状况 和 演变 趋势 
的 方法 。 战 略 坐 标 图 以 问心 度 为 横 坐 标 轴 ， 以 密度 为 纵 坐 标 轴 ， 以 两 者 的 中 位 数 
或 均值 为 坐标 原点 , 将 研究 主题 簇 表 示 在 平面 坐标 系 中 BH。 本 文 所 采用 的 密度 和 
向 心 度 的 计算 方法 参考 B. Lee 和 Y.I. Jeong 发 表 于 2008 年 的 研究 论文 B14 ， 密 
度 指标 反映 一 个 研究 主题 复 的 内 部 聚合 能 力 , 向 心 度 指标 反应 研究 主题 篮 与 其 他 
研究 主题 禾 的 连接 能 力 。 密 度 越 大 ， 说 明 该 研究 主题 内 部 结构 稳定 性 越 高 ;向 心 
度 越 大 ， 说 明 该 研究 主题 簇 在 整个 研究 领域 中 处 于 越 核心 的 地 位 。 

主题 演化 内 容 分 析 借 助战 略 坐 标 图 研究 不 同 社区 发 展演 变 趋势 。 具 体 而 言 ， 
将 主题 社区 根据 时 间 窗 口 划 分 为 不 同 的 主题 秘 , 在 全 局 网 络 下 利用 各 主题 复 所 包 
含 的 主题 词 分 别 计算 密度 和 同心 度 , 将 其 分 布 在 战略 坐标 图 的 四 个 象限 (图 4)。 
第 一 象限 主题 复核 心 且 稳 定 ， 是 本 领域 研究 热点 和 重点 ， 受 到 广泛 关注 ， 内 部 结 
构 稳 定 ; 第 二 象限 主题 禾 为 边缘 、 稳 定 类 ， 内 部 结构 稳定 ,但 与 其 他 主题 秘 联 系 
松散 ,研究 相对 独立 ; 第 三 象限 主题 徐 是 边缘 且 非 稳定 类 ， 内 部 结构 松散 ， 研 究 
相对 不 成 熟 ， 在 领域 中 处 于 边缘 位 置 ， 第 四 象限 分 布 着 核心 但 不 稳定 类 主题 复 ， 
是 领域 研究 的 活跃 分 文 ， 但 内 部 结构 不 稳定 ， 发 展 尚 不 成 熟 。 随 着 领域 的 发 展 ， 
各 主题 社区 研究 内 容 呈 现 不 同 的 发 展 趋势 ， 密 度 的 提升 表征 自身 发 展 趋向 稳定 ， 
向 心 度 的 提升 表明 其 在 领域 发 展 的 过 程 中 占据 愈 发 核心 的 位 置 。 
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图 4 战略 坐标 图 


4 实验 与 结果 分 析 
为 了 验证 研究 框架 的 合理 性 和 有 效 性 , 本 文选 择 美国 太 赫 效 领 域 进行 实证 研 


究 。 太 赫兹 以 其 独特 的 性 能 和 广泛 的 应 用 越 来 越 受 到 各 国 的 关注 , 被 国际 科学 界 
公认 为 是 高 科技 领域 的 必 争 之 地 , 呈现 出 基础 科学 、 先 进 技术 和 产业 化 三 方面 多 
元 化 快速 发 展 的 新 局 面 。 


4. 1 多 源 数据 获取 


本 文 分 别 选 取 Dimensions 平台 、Web of Science 数据 库 的 SCI 期 刊 论文 、DII 
专利 文献 ， 以 “terahertz” 为 主题 词 ， 检索 获取 论文 通讯 作者 或 第 一 作者 来 自 美 
国 、 专 利 申请 人 和 发 明 人 均 来 自 美 国 、 基 金 项 目 资助 国 和 研究 机 构 所 在 地 均 为 美 
国 的 相关 文档 ， 建 立 初始 数据 集 。 最 终 ， 共 获得 1255 份 基金 项 目 文献 、5121 份 
期 刊 论文 文献 、1204 个 简单 专利 同族 。 


4. 2 领域 主题 识别 


4.2.1 文档 时 间 窗 口 划分 

论文 以 年 度 发 文 量 和 年 度 被 引 频 次 、 专 利 以 年 度 申请 量 和 年 度 申 请 人 数量 、 
基金 项 目 以 年 度 新 增 项 目 数量 和 年 度 项 目 金 额 为 特征 , 分 别 划分 时 间 窗 口 。 通 过 
对 时 间 序 列 数据 进行 多 维 有 序 样本 聚 类 ， 利 用 Python 库 的 Kneed 包 定 量 选取 损 
失 函 数 数据 曲线 的 拐点 B8, 自动 输出 时 间 划 分 最 佳 方案 , 不 同 数据 源 的 时 间 窗 口 
划分 结果 如 图 5 和 表 1 所 示 。 


\、 损失 函数 曲线 -@- Pp1 -@- P2 0 Pp3 -@- Pp4 


图 5 领域 不 同 数据 源 文档 时 间 聚 类 图 


表 1 领域 不 同 数据 源 的 时 间 窗 口 

时 间 窗 口 基金 项 目 论文 专利 

P1 1987-2000 1986-1999 1984-2002 
P2 2001-2007 2000-2005 2003-2006 


P3 2008-2015 2006-2018 2007-2013 
P4 2016-2020 2019-2022 2014-2022 


图 5 上、 中、 下 分 别 为 基金 项 目 、 论文 和 专利 ， 左 为 损失 函数 曲线 ， 矿 为 时 
间 分 布 散 点 图 。 由 图 5 和 表 1 可 知 ， 基 金 项 目 、 论 文 和 专利 可 以 分 别 划 分 为 4 
个 发 展 阶 段 。 美 国 太 赫兹 领域 最 早 源 于 1984 年 的 专利 文献 ， 约 2000 年 之 前 是 
该 领域 发 展 的 第 一 阶段 ， 第 二 阶段 约 在 2001-2006 年 ， 第 三 阶段 于 2007 年 左右 
开始 。2014 年 之 后 ， 专 利 、 基 金 项 目 和 论文 先后 进入 第 四 阶段 。 

4.2.2 词 袋 构建 

对 同一 数据 源 、 同 一 时 间 窗 口 下 的 文档 进行 文本 处 理 , 利用 3.2.2 所 述 方法 ， 
基于 TF-IDF 值 和 术语 长 度 加 权 词 频 构 建 词 袋 ， 改 进 LDA 模型 主题 识别 效果 。 
首先 , 构建 领域 停 用 词 表 和 停 用 短语 表 , 利用 Python 的 NLTK 库 进 行文 档 分 词 ， 
将 停 用 词 和 标点 替换 为 与 领域 无 关 的 特殊 标记 词 ， 其 次 ， 利 用 TF-IDF 算法 ， 抽 
取 单 词 或 短语 作为 候选 术语 ， 有 具体 参数 设置 为 : max_d 人 0.8，min_d 伟 0.01， 
ngram_range=(1,5)， 即 抽取 长 度 范围 为 1~5 的 单词 或 短语 为 候选 术语 ， 并 将 其 在 
文档 中 出 现 的 频率 限制 在 1%~80%。 再 次 ,剔除 包 含 特殊 标记 词 的 候选 术语 ， 删 
除 停 用 短语 表 中 的 候选 术语 ， 形 成 术语 集合 。 最 后 ,根据 术语 在 文档 中 原始 出 现 
频次 、TF-IDF 值 和 术语 长 度 ， 计 算术 语 加 权 词 频 ， 构 建 词 袋 。 最 终 构 建 的 词 袋 
中 术语 长 度 大 于 2 的 短语 占 比 超过 76.94%。 

4.2.3 主题 抽取 

按照 构建 好 的 词 袋 ， 设 置 参 数 ， 利 用 LDA 主题 模型 进行 主题 抽取 。 本 文 设 
定 a=50/K、B =0.01、 和 迭代 次 数 为 500 次 ， 并 设 定 每 篇 文档 输出 概率 超过 0.1 的 
所 有 主题 , 每 个 主题 输出 概率 最 高 的 100 个 词 (包括 概率 与 第 100 个 词 一 致 的 所 
有 词汇 )。 根 据 困惑 度 指标 ， 计 算 最 佳 主题 数 多 ， 不 同 数据 源 、 不 同时 间 阶 段 的 
困惑 度 曲 线 如 图 6 所 示 〈 左 、 中 和 右 依次 为 基金 项 目 、 论文 和 专利 ， 由 上 至 下 为 
P1-P4)， 其 文档 数 和 最 佳 主题 数 如 表 2 所 示 。 


加 
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图 6 领域 不 同 数据 源 不 同时 间 窗 口 困惑 度 曲 线 


表 2 领域 不 同 数据 源 不 同时 间 窗 口 的 文档 数 和 主题 数 
数据 来 源 基金 项 目 论文 专利 
时 间 窗 Pl P2 P3 P4 P1 P2 P3 P4 P1 P2 P3 P4 
文档 数量 93 256 471 435 340 708 3118 955 76 172 501 455 


主题 数 13 14 14 14 14 13 16 17 14 14 15 13 


LDA 模型 抽取 的 各 主题 命名 结果 《〈 部 分 ) 如 表 3 所 示 。 通 过 咨询 领域 专家 
认为 ,美国 太 赫 效 领 域 三 种 数据 源 多 个 时 间 窗 口 形成 的 171 个 主题 ， 基 本 涵盖 太 
赫兹 领域 的 关键 术语 ， 主 题 命 名 相对 高 效 、 准 确 。 不同 数据 源 不 同时 间 窗 口 的 主 
题 时 间 - 主 题 强度 分 布 如 图 7 所 示 。 三 种 数据 源 分 别 在 四 个 时 间 窗 口 下 形成 不 同 
的 研究 主题 ， 根 据 主题 时 间 ， 分 别 以 2002、2007 和 2015 年 为 分 界 点 ， 数 据 集 自 
然 呈 现 1984-2002、2002-2007、2007-2015、2015-2022 四 个 发 展 阶 段 。 通 过 阅读 
领域 大 量 文献 以 及 咨询 专家 意见 ， 上 述 阶段 划分 符合 领域 实际 发 展 情况 。 


表 3 领域 不 同 数据 源 不 同时 间 窗 口 的 主题 详细 信息 


主题 序 。 时 间 窗 口 _ 


主题 名 部 分 主题 词 
号 数据 源 类 型 
'electro optic', 'free space', 'free space electro optic', 'freely propagate 
1 P1 论文 空间 电光 采样 terahertz', 'electro optic sampling', 'optic', terahertz pulse', 'freely propagate', 
'space electro optic', 'free space electro' 
'optical', ‘terahertz optical asymmetric demultiplexer', 'optical asymmetric 
We 、 太 赫 效 光 学 非 对 称 解 
Ee: 2 P1 论文 demnultiplexer, terahertz optical asymmetric, network', terahertz optical , 
复 用 器 
'optical amplifier', 'switch', asymmetric demultiplexer, 'optical asymmetric' 
、 'terahertz pulse', 'cycle terahertz pulse', 'cycle terahertz', 'pulse', 'cycle', half 
3 P1 论文 太 赫 效 脉冲 
cycle', 'optical', 'optical frequency comb'，single cycle', 'diffraction 
"terahertz Spectroscopy', time domain', 'thickness', 'measurement', time 
太 赫 兹 时 域 光 谱 厚 度 
169 P4 项 、 domain terahertz', ,Spectroscopy', 'thickness measurement', 'domain terahertz', 
测量 技术 
measurement system', instrument' 
"image', terahertz image',，imaging', high resolution'，image System ， 
170 P4 项 太 赫 兹 成 像 系统 
'terahertz image system', ‘high energy', ‘terahertz imaging', 'detection', 'sensor' 
metwork', "wireless', 'communication', terahertz band', 'data rate', 'terahertz 
171 P4 项 太 赫 兹 无 线 通信 网 络 
communication', 'data', 'spectrum', 'band', 'high data rate' 
2 @ 基金 项 目 
0.35 @ 论文 是 
@ 专利 
0.3 @ 
025 t © 号 . egg。 
| 和 Se 
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图 7 领域 不 同 数据 源 不 同时 间 窗 口 的 主题 时 间 - 主 题 


强度 分 布 


4. 3 主题 演化 网 络 构建 与 分 析 


4.3.1 主题 演化 网 络 构建 

对 相 邻 时 间 窗 口 下 的 各 个 主题 进行 相似 度 计 算 ， 利 用 3.3.1 所 述 箱 型 图 检测 
算法 ， 选 取 相 似 度 大 于 0.177 的 主题 对 (如 图 8)， 进 行 主题 时 序 关 联 ， 最 终 形 成 
210 对 高 关联 主题 。 根 据 这 些 主题 对 ， 初 步 构建 领域 发 展 的 主题 演化 网 络 ， 利 用 


vv 


Louvain 算法 实现 社区 发 现 《〈 模 块 度 Q>0.62)。 为 保证 合理 的 社区 规模 ， 本 文 设 
置 社区 内 部 主题 节点 数量 最 低 为 3, 最 终 形 成 8 个 关系 紧密 的 主题 社区 ( 表 4)。 
图 9 展示 了 调整 后 的 主题 演化 网 络 图 ， 横 向 维度 表示 时 间 的 演进 ， 纵 癌 维度 表 


示 不 同 的 主题 社区 ， 市 点 大 小 代表 主题 强度 ， 边 


I 宽度 代表 演化 关联 的 紧密 性 。 


分 析 发 现 , 美国 太 赫兹 领域 主要 研究 主题 社区 为 : 太 赫 效 辐射 源 、 太 赫 效 探测 器 、 
太 赫 效 量 子 级 联 激光 器 、 太 赫兹 时 域 光 谱 建 模 与 分 析 、 太 赫兹 电子 学 、 太 赫 效 通 
言 、 太 赫 效 检测 成 像 、 太 赫 效 功能 器 件 制 备 材料 。 
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图 8 领域 主题 相似 度 箱 型 图 
表 4Louvain 算法 初步 识别 领域 主题 社区 


社区 编号 主题 节点 社区 命名 

#1 1, 3, 8, 12, 13, 44, 47, 50, 74, 93, 97, 122, 153, 160 “” 太 赫 效 辐射 源 

#2 4, 9, 11, 14, 43, 46, 53, 77, 81, 85, 88, 123, 136 太 赫 兹 探测 占 
6, 42, 55, 59, 71, 82, 87, 92, 99, 100, 103, 106, 108, 二 、 

#3 109, 112, 121, 132, 139, 142, 144, 145, 150, 151, TT- 
152, 157, 161 

gd 5, 10, 45, 51, 54, 72, 84, 86, 91, 111, 117, 124, 129， 太 赫兹 时 域 光 谱 
135, 137, 154 建 模 与 分 析 

7, 49, 70, 78, 80, 94, 114, 118, 119, 120, 126, 130, 大 赫兹 电子 学 
158, 159 

#6 95, 105, 115, 128, 131, 147, 148, 156, 166 太 赫 兹 通信 

#7 69, 83, 101, 110, 116, 138, 146, 162, 164 太 赫 效 检 测 成 像 

汪 52, 57, 89, 90, 96, 98, 107, 125, 133, 134, 140, 141， 太 赫 效 功 能 器 件 
143, 155 制备 材料 
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图 9 领域 主题 演化 网 络 
4.3.2 主题 社区 演化 分 析 
本 文 构建 主题 社区 演化 图 , 分 析 主 题 社区 演化 形式 特征 和 内 容 特征 ， 并 在 此 


基础 上 咨询 专家 意见 ， 对 实验 结果 的 有 效 性 进行 评估 和 验证 。 

(1) 演化 形式 特征 分 析 

根据 社区 主题 节点 数量 时 序 分 布 〈 图 10) 和 主题 社区 时 序 关联 图 (图 11) 
分 析 发 现 : 

从 社区 内 数据 源 类 型 (图 10) 来 看 ， 多 源 数 据 在 不 同 主题 社区 中 的 分 布 是 
不 均衡 的 , 领域 研究 初期 论文 在 主题 社区 内 外 产生 的 演化 影响 较 大 ,中 后 期 其 他 
数据 源 逐 渐 扩 大 影响 力 。#1 太 赫 效 辐射 源 前 期 以 论文 主题 为 主 ， 并 向 基金 项 目 
主题 或 专利 主题 发 展 。#2 太 赫 效 探测 器 和 树 太 赫 效 时 域 光 谱 建 模 与 分 析 以 论文 
主题 研究 为 主 ， 基 金 项 目 主题 为 辅 。#3 太 赫 效 量子 级 联 激光 器 和 #6 太 赫 交通 信 
主题 社区 内 三 种 数据 源 的 主题 均 具 有 重要 作用 , 但 前 者 专利 主题 节点 数量 显著 增 
长 ， 后 者 则 呈现 较为 均衡 发 展 的 态势 。#5 太 赫 兹 电子 学 中 基金 项 目 主题 总 体 较 
多 ， 论 文 主题 数量 逐渐 增长 。#7 太 赫 兹 检测 成 像 和 巾 太 赫 兹 功能 器 件 制备 材料 
则 分 别 呈 现 基 金 项 目 和 专利 主题 、 论 文 和 专利 主题 均衡 发 展 的 趋势 。 

从 社区 内 不 同时 间 段 的 主题 节点 数量 (图 10) 来 看 ， 不 同 主题 社区 存在 收 
缩 、 扩 张和平 稳 发 展 三 种 状态 。#1 太 赫 效 辐射 源 、 想 太 赫 效 探测 器 的 研究 主要 
集中 在 领域 发 展 前 期 ， 随 着 时 间 推 移 主题 节点 数量 逐渐 减少 , 社区 发 展 呈 逐渐 收 
缩 的 发 展 态 势 。#3 太 赫 效 量 子 级 联 激 光 器 、#6 大 赫兹 通信 、#7 太 赫 效 检测 成 像 、 
#8 太 赫 效 功 能 器 件 制备 材料 主题 节点 数量 增长 明显 ， 处 于 持续 快速 扩张 阶段 。 
#4 太 赫 效 时 域 光谱 建 模 与 分 析 、#5 太 赫 效 电子 学 主题 社区 研究 起 步 早 、 主 题 节 
点 数量 持续 增长 ， 近 期 处 于 平稳 发 展 阶段 。 
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图 10 领域 主题 社区 节点 数量 时 序 分 布 
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图 11 领域 主题 社区 时 序 关 联 
从 社区 内 外 主题 演化 关系 “图 11) 来 看 ， 总 体 上 社区 间 研 究 分 袭 和 融合 的 
趋势 显著 增强 。#1 太 赫 兹 辐射 源 和 #2 太 赫 兹 探测 器 难以 维持 研究 社区 的 稳定 ， 
主题 分 裂 产 生 的 外 浇 效 应 明显 ， 为 其 他 多 个 主题 社区 的 发 展 提供 基础 。#3 太夫 
兹 量子 级 联 激光 器 前 期 主要 融合 #2 太 赫 兹 探测 器 的 部 分 内 容 ， 中 期 广泛 融合 多 
社区 知识 ， 后 期 分 裂 和 融合 趋势 愈 发 显著 。#4 太 赫 兹 时 域 光 谱 建 模 与 分 析 前 期 
和 后 期 分 裂 和 融合 现象 均 较 为 明显 , 后 期 分 裂 和 融合 的 广度 有 了 较 大 提升 。 #5 太 
赫兹 电子 学 前 期 的 分 裂 现象 相对 明显 ,中 期 与 其 他 社区 联系 较为 松散 ， 后 期 则 融 
合 了 #1 太 炙 兹 辐射 源 、 相 太 赫 兹 探测 器 、#8 太 赫 兹 功能 器 件 制备 材料 的 多 社区 
内 容 ， 知 识 范 晓得 到 进一步 扩展 。#6 太 赫 兹 通信 、#7 太 赫 兹 检测 成 像 和 #8 太 苗 
兹 功能 器 件 制备 材料 社区 形成 较 晚 ， 对 其 他 社区 研究 内 容 的 融合 能 力 强 , 尤其 #6 
太 赫 效 通 信 的 产生 直接 受益 于 要 和 #4 的 分 裂 扩散 ; 同时 在 领域 友 展 的 后 期 #8 的 
分 裂 和 融合 现象 均 得 到 显著 增强 ， 知 识 扩 散 和 聚合 能 力 同步 提升 。 


(2) 演化 内 容 特征 分 析 
利用 所 有 社区 全 部 时 间 段 的 主题 词 构建 共 词 网 络 , 将 各 社区 不 同时 间 段 的 主 
题 节 点 聚合 成 不 同 的 主题 复 , 根据 3. 3. 4 所 述 方法 计算 不 同 主题 复 的 密度 和 向 心 


度 ， 以 中 位 数 为 分 界线 ， 构 建 战略 坐标 图 (图 12)。 

第 一 象限 中 仅 包 括 第 四 阶段 的 本 太 赫 兹 电子 学 ， 其 他 主题 簇 集中 分 布 在 第 
三 和 第 四 象限 。#1 太 赫 兹 辐射 源 和 #7 太 赫 兹 检测 成 像 在 发 展 的 所 有 阶段 均 位 于 
第 三 象限 , 为 边缘 非 稳 定 类 主题 秘 , 但 #7 向 心 度 逐 渐 增 长 ， 自 身 发 展 对 领域 影响 
逐渐 扩大 ， 而 #1 向 心 度 呈 逐 渐 降低 趋势 ， 日 趋 走 向 边缘 地 带 。#2 太 赫 兹 探测 器 
前 期 密度 和 向 心 度 同步 提升 , 中 后 期 两 个 指标 均 持续 降低 ,自身 稳定 性 以 及 对 其 
他 社区 的 影响 力 逐 渐 减 小 。#3 太 赫 效 量子 级 联 激光 器 、 树 太 赫 兹 时 域 光 谱 建 模 
与 分 析 、#5 太 赫 效 电子 学 、#6 太 赫 效 通信 密度 和 向 心 度 呈 现 同步 增长 趋势 ， 逐 
渐 走 向 成 熟 ， 在 领域 发 展 中 进入 愈 发 核心 的 位 置 ， 其 中 要 太 赫 效 量 子 级 联 激光 
器 在 领域 发 展 后 期 阶段 向 心 度 最 高 ， 成 为 最 核心 的 主题 复 ; 由 的 密度 变化 尤其 
显著 , 在 第 四 阶段 成 为 密度 最 高 主题 徐 ,， 研究 内 容 逐 渐进 入 成 熟 期 。 #8 太 赫 效 功 
能 器 件 制备 材料 在 发 展 的 过 程 中 ,密度 减 小 、 向 心 度 增 加 ， 表 明 其 在 发 展 的 过 程 
中 逐渐 不 稳定 ， 研 究 内 容 变 化 较 大 ， 同 时 与 其 他 研究 分 文联 系 加 深 ， 逐渐 步 入 核 
心 位 置 。 
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图 12 领域 各 主题 秘 战 略 坐 标 图 


综合 主题 社区 演化 形式 特征 和 内 容 特 征 分 析 发 现 : 

#1 太 赫 效 辐射 源 和 要 太 炙 效 探 测 器 社区 起 步 早 ， 研 究 内 容 逐 渐 收 缩 ， 近 年 
来 分 裂 现象 愈 发 显著 , 不 稳定 性 加 剧 。 值 得 注意 的 是 , #1 在 近期 均 为 基金 项 目 主 
题 ， 其 未 来 发 展 值得 继续 关注 。 

#3 太 赫 效 量 子 级 联 激光 器 起 源 较 早 ， 随 着 领域 的 发 展 快速 扩张 ， 近 期 分 裂 
和 融合 趋势 显著 ， 人 处 于 领域 发 展 的 核心 位 置 ， 在 专利 文献 中 研究 基础 扎实 。 

#4 太 赫 兹 时 域 光谱 建 模 与 分 析 和 #5 太 赫 效 电子 学 研究 探索 较 早 ， 处 于 平稳 
发 展 阶段 。 其 中 #4 近期 分 裂 和 融合 的 广度 均 位 于 前 列 ， 核 心性 和 稳定 性 得 到 持 


续 提 升 ， 论 文 是 其 主要 发 展 阵 地 ; #5 近期 对 其 他 社区 的 知识 融合 趋势 明显 , 自身 
发 展 走向 成 熟 期 ， 基 金 项 目 在 发 展 中 后 期 起 到 关键 作用 。 

#6 太 赫 效 通信 启动 最 晚 ， 正 在 快速 扩张 ， 对 其 他 社区 研究 内 容 的 融合 能 力 
强 , 近期 分 裂 现象 明显 ， 影 响 多 个 社区 的 发 展 ， 已 成 为 领域 相对 核心 地 位 的 主题 
艇 ， 近 期 同时 受到 基金 项 目 、 论 文 和 专利 的 广泛 关注 。 

#7 太 赫 兹 检测 成 像 开 始 较 晚 ， 处 于 持续 扩张 期 , 分 裂 和 融合 现象 增强 , 自身 
稳定 性 不 足 , 核心 性 发 展 停滞 , 近期 主题 节点 中 基金 项 目 、 论 文 和 专利 均 有 涉 猫 ， 
需要 进一步 关注 其 成 长 状况 。 

#8 太 赫 效 功能 器 件 制 备 材料 研究 开启 较 晚 ， 持 续 快 速 扩张 ， 分 裂 和 融合 现 
象 愈 发 显著 ,自身 稳定 性 有 所 降低 ， 核 心性 不 断 增强 ， 近 期 发 展 受到 基金 项 目 关 
注 ， 论 文 和 专利 的 研究 成 果 稳 步 发 展 ， 未 来 发 展 前 景 广阔 。 
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本 文 提出 基于 多 源 数据 的 领域 主题 演化 研究 框架 , 并 在 美国 太 赫 效 领域 展开 
实证 研究 。 引 入 基金 项 目 、 论 文 和 专利 数据 ， 丰 富 数 据 来 源 ， 利用 多 维 有 序 样本 
聚 类 方法 ， 对 不 同 数据 源 分 别 进行 时 间 窗 口 划分 ， 构 建 科学 合理 的 数据 集 ; 提出 
改进 的 词 袋 构建 方法 ， 提 高 主题 识别 结果 的 可 读 性 和 可 理解 性 ; 利用 Louvain 社 
区 发 现 算法 ， 融 合 多 源 数据 形成 的 研究 主题 ， 聚 合成 关系 紧密 的 主题 社区 ， 简 化 
主题 演化 网 络 ,清晰 展现 主题 演化 路 径 ; 从 演化 形式 特征 和 内 容 特征 两 个 角度 综 
合 分 析 主 题 社区 演化 趋势 。 为 验证 研究 框架 的 有 效 性 和 实证 研究 结果 的 可 靠 性 ， 
本 论文 咨询 了 太 赫 效 领 域 的 专家 , 专家 认为 所 提出 的 数据 集 划 分 方法 与 领域 实际 
发 展 阶段 吻合 : 第 一 阶段 (1984-2002 年 ) 为 领域 发 展 起 步 阶 段 ， 研 究 项 目 大 多 
为 基础 科学 研究 类 型 ， 数 量 和 经 费 均 比 较 少 ， 第 二 阶段 (2002-2007 年 ) 为 初步 
发 展 阶段 ， 2004 年 美国 将 太 灰 兹 科技 评 为 “改变 未 来 世界 的 十 大 技术 ”之 一 ; 第 
三 阶段 (2007-2015 年 ) 为 快速 发 展 阶段 ， 该 阶段 处 于 领域 发 展 的 黄金 时 期 ， 领 
域内 部 各 个 技术 方向 百花 齐 放 ， 研 究 方向 较为 发 散 ; 第 四 阶段 (2015-2022 年 ) 
为 发 展 成 熟 阶 段 ,科研 投入 更 加 注重 太 赫 效 技术 的 应 用 价值 ,研究 项 目 数 量 下 降 
的 同时 单个 项 目的 经 费 大 大 提升 。 同时, 专家 认为 文本 挖掘 的 主题 社区 基本 涵盖 
了 太 赫 效 研 究 的 各 个 领域 ， 主 题 演 化 分 析 直 观 、 有 效 地 揭示 太 赫 效 领域 发 展 态势 
及 各 阶段 发 展 特 征 。 因 此 ， 基 于 本 文 提 出 的 研究 框架 ， 可 以 一 定 程 度 上 解决 当前 
研究 中 存在 的 数据 来 源 缺乏 、 多 源 数 据 融 合 困难 、 数 据 划 分 客观 性 不 足 、 主 题 挖 
掘 结 果 可 读 性 和 可 理解 性 差 、 领 域 主题 演化 脉络 不 清晰 等 问题 。 

本 研究 在 数据 源 的 全 面 性 和 方法 的 适用 性 存在 一 些 局 限 性 , 可 进一步 开展 以 
下 几 个 方面 的 研究 :本文 重 点 关注 三 种 数据 源 , 后 续 可 扩展 更 丰富 的 数据 来 源 ， 
进行 更 全 面 的 领域 主题 演化 分 析 ; @@ 本 文 仅 在 美国 太 赫 效 领域 开展 实证 研究 ， 后 
续 可 在 其 他 研究 领域 进行 实证 分 析 ， 验 证 研究 方法 的 适用 性 。 


参考 文献 

[1] 许 海 云 ， 董 坤 ， 隐 玲 ， 等 .科学 计量 中 多 源 数据 融合 方法 研究 述评 加 .情报 学 报 ,2018，37 (03): 318-328. 
[2] 李 广 建 ， 杨 林 .大 数据 视角 下 的 情报 研究 与 情报 研究 技术 吕 . 图 书 与 情报 ,2012 (06): 1-8. 

[3] XU H Y, YUE 2Z H, WANG C，et al.Multi-source data fusion study in scientometrics[J].Scientometric 
s,2017, 111 (2): 773-792. 

[4] 谭 晓 ， 李 辉 . 基 于 多 源 数据 知识 融合 方法 的 研究 前 沿 识别 [ 刀 . 现 代 情 报 ,2019,，39 (08): 29-36. 


[5] 冯 佳 , 穆 晓 敏 ， 王 伟 .面向 研究 前 沿 识 别 的 载体 -特征 -关系 融合 模型 研究 [J]. 图 书馆 杂志 ,2020, 39 (09): 5 
0-03. 


[6] WANG X.Research on the discourse power evaluation of academic journals from the perspective of m 
ultiple fusion: Taking Medicine, General and Internal journals as an example[J].Journal of information scie 
nce, 0 (0): 01655515221107334. 

[7] 陈 启明 , 王 效 岳 , 白 如 江 , 等 .多 源 数 据 融 合 下 突 发 公共 事件 社会 关注 与 政策 趋向 研究 以 新 冠 肺炎 
疫情 为 例 四 .情报 探索 ,2022 (06): 15-25. 

[8] 胡 吉 霞 . 面向 多 源 数据 的 学 科 知 识 网 络 构建 方法 与 应 用 研究 [D]. 西安 电子 科技 大 学 ,2021. 

[9] 王 春 秀 ， 冉 美丽 .学 科 主 题 演 化 定量 分 析 的 理论 基础 探析 四 .现代 情报 ,2008 (06): 48-50. 

[10] 梁 素 ， 刘 小平 .基于 文本 挖掘 的 科技 文献 主题 演化 研究 进展 町 . 图 书 情报 工作 ,2022, 66 (13): 138-149. 

[ 

[ 


11] 陈 悦 ， 刘 则 渊 ， 陈 劲 ， 等 .科学 知识 图 谱 的 发 展 历程 .科学 学 研究 ,2008 (03): 449-460. 
12] MORRIS S A, YEN G, WU Z, et al.Time line visualization of research fronts[J].Journal of the Am 


erican Society for Information Science and Technology,2003, 54 (5): 413-422. 

[13] PALLA G, BARABASI A L, VICSEK T.Quantifying social group evolution[J].Nature,2007, 446 (713 
6): 664-667. 

[14] 周 源 ， 张 超 , 唐 杰 ,等 .基于 主题 变迁 的 领域 发 展 路 径 智 能 化 识别 一 一 以 人 工 智能 为 例 []. 图 书 情报 工作 ， 
2018, 62 (14): 62-71. 

[15] 陈 悦 ， 王 康 ， 宋 超 ， 等 .一 种 用 于 技术 融合 与 演化 路 径 探测 的 新 方法 : 技术 群 相似 度 时 序 分 析 法 町 . 情 报 
学 报 ,2021, 40 (06): 565-574. 

[16] 刘 怀 兰 , 刘 盛 , 周 源 ， 等 .基于 多 源 文本 挖掘 的 技术 演化 路 径 识 别 [中 .情报 理论 与 实践 ,2022，45 (11): 17 
8-187. 

[17] MEYER M.Tracing knowledge flows in innovation systems[J].Scientometrics,2002, 54 (2): 193-212. 
[18] 刘 自 强 , 许 海 云 天 丽 欣 ， 等 .面向 研究 前 沿 预测 的 主题 扩散 演化 滞后 效应 研究 [加 .情报 学 报 ,2018，37 
(10): 979-988. 
[19] 李 慧 ， 孟 玮 .专利 视角 下 的 美国 空军 核心 技术 演化 分 析 加 .情报 理论 与 实践 ,2021，44 (02): 41-49. 

[20] 李 慧 ， 胡 吉 霞 , 余 志 颖 .面向 多 源 数据 的 学 科 主 题 挖掘 与 演化 分 析 四 .数据 分 析 与 知识 发 现 ,2022，6 (07): 
44-55. 


Et 


na 


uy 


[21] FISHER W D.On grouping for maximum homogeneity[J].Journal of the American Statistical Associat 
ion,1958, 53 (284): 789-798. 
[22] 李 俊 ， 毕 华兴 , 李 笑 吟 ,等 .有 序 聚 类 法 在 土壤 水 分 垂直 分 层 中 的 应 / 
98-101. 
[23] 大 布 穷 , 叶 彦 辉 ， 赵 垦 田 .西藏 色 季 拉 山 急 尖 长 苞 冷 杉 生长 规律 研究 加 .安徽 农业 科学 ,2010, 38 (17): 9 
317-9320+9344. 
[24] 张 多 ， 韩 逢 庆 . 基 于 支持 向 量 机 和 有 序 聚 类 的 岩层 识别 四 .智能 系统 学 报 ,2014，9 (01): 98-103. 

[25] 祖 坤 琳 ， 赵 铭 伟 ， 林 鸿 飞 . 基 于 有 序 聚 类 的 专利 知识 演化 研究 [中 .计算 机 工程 与 科学 ,2016，38 (04): 785- 
791. 
[26] 严 广 松 , 路 多 芳 .多 维 有 序 样本 的 聚 类 方法 研究 [加 .统计 与 决策 ,2008 (04): 29-30. 

[27] DU Y J, YI Y T, LI X Y et al.Extracting and tracking hot topics of micro-blogs based on improve 


[也 .北京 林业 大 学 学 报 ,2007 (01): 


d Latent Dirichlet allocation[J].Engineering applications of artificial intelligence,2020,87: 13. 

[28] 谭 春 辉 ， 熊 梦 媛 .基于 LDA 模型 的 国内 外 数据 挖掘 研究 热点 主题 演化 对 比分 析 思 .情报 科学 ,2021，39 
(04): 174-185. 
[29] 张 学 成 , 周斌， 孔 瑞 远 ， 等 .大 型 仪器 利用 情况 调查 数据 异常 值 检测 的 数学 方法 比较 加 .数学 的 实践 与 认 
识 ,2012, 42 (11): 50-54+56-57+55. 
[30] 刘 路 , 基于 Louvain 算法 的 社区 发 现 与 核心 节点 挖掘 研究 [D]. 西安 电子 科技 大 学 ,2021. 


上 


[31] NEWMAN M E JModularity and community structure in networks[J].Proceedings of the National A 
cademy of Sciences of the United States of America,2006, 103 (23): 8577-8582. 

[32] BLONDEL V D, GUILLAUME J L, LAMBIOTTE R，et al.Fast unfolding of communities in large 
networks[J].Journal of statistical mechanics-theory and experiment,2008: 12. 

[33] 隐 玲 , 许 海 云 ， 胡 正 银 ,等 .学 科 主 题 演化 路 径 的 多 模式 识别 与 预测 一 一 一 个 情报 学 学 科 主 题 演化 案例 
中 .图 书 情报 工作 ,2016，60 (13): 71-81. 

[34] 唐 果 媛 .基于 共 词 分 析 法 的 学 科 主 题 演 化 研究 方法 的 构建 [ 丰 . 图 书 情 报 工 作 ,2017，61 (23): 100-107. 
[ 

[ 


pa 


35] 周 妆 . 模 因 视角 下 知识 网 络 的 主题 演化 研究 [D]. 兰州 交通 大 学 ,2021. 
36] 姜 先 , 王 德 庄 ， 马 海 群 . 社会 网 络 分 析 方 法 在 图 书 情 报 学 科 的 应 用 研究 [M]. 北京 : 知识 产权 出 版 社 2 


[37] LEE B, JEONG Y I.Mapping Korea's national R&D domain of robot technology by using the co-wo 
rd analysis[J].Scientometrics,2008, 77 (1): 3-19. 

[38] SATOPAA V, ALBRECHT J, IRWIN D, et al. Finding a kneedle in a haystack: detecting knee point 
s in System behavior[C]/ International conference on distributed computing Systems workshops. IEEE Co 


mputer Society, 2011. 


(通讯 作者 : 朱 相 丽 E-mail: zhuxl@mail. las. ac. cn) 


作者 贡献 说 明 : 

张 敬 ， 论文 构思 、 数 据 管理 和 分 析 、 初 稿 写作 ; 

朱 相 丽 : 论文 框架 调整 完善 ， 论 文 的 指导 、 审 核 与 修改 。 

感谢 北京 邮电 大 学 元 丽 梅 教授 和 中 国 科 学 院 空 天 信息 创新 研究 院 李 超 研究 员 对 本 文 提 
供 的 专业 意见 。 


